智能论文笔记

ApHMM: Accelerating Profile Hidden Markov Models for Fast and Energy-Efficient Genome Analysis

Can Firtina , Kamlesh Pillai , Gurpreet S. Kalsi , Bharathwaj Suresh , Damla Senol Cali , Jeremie Kim , Taha Shahroodi , Meryem Banu Cavlak , Joel Lindegger , Mohammed Alser

分类：人工智能 | 机器学习

2022-07-20

剖面隐藏的马尔可夫模型（PHMM）广泛用于许多生物信息学应用中，以准确识别生物学序列（例如DNA或蛋白质序列）之间的相似性。 PHMM使用常用和高度精确的方法（称为Baum-Welch算法）来计算这些相似性。但是，Baum-Welch算法在计算上很昂贵，现有作品为固定的PHMM设计提供了软件或仅硬件解决方案。当我们分析最先进的作品时，我们发现迫切需要灵活，高性能和节能的硬件软件共同设计，以有效地有效地解决所有主要效率低下的效率PHMM的Baum-Welch算法。我们提出了APHMM，这是第一个灵活的加速框架，可以显着减少PHMM的Baum-Welch算法的计算和能量开销。 APHMM利用硬件软件共同设计来解决Baum-Welch算法中的主要效率低下，通过1）设计灵活的硬件来支持不同的PHMMS设计，2）利用可预测的数据依赖性模式，并使用chip Memory的片段记忆，使用纪念活动技术，memoigience Memoriques，Memoigience Memoriques，Memoigient， 3）通过基于硬件的过滤器快速消除可忽略的计算，4）最小化冗余计算。我们在专用硬件和2）GPU的软件优化方面实现了我们的1）硬件软件优化，以为PHMM提供首个灵活的Baum-Welch加速器。与Baum-Welch算法的CPU，GPU和FPGA实现相比，APHMM提供的显着加速度为15.55 x-260.03x，1.83x-5.34x和27.97倍，分别为27.97倍。 APHMM的表现优于三个重要的生物信息学应用程序的最新CPU实现，1）错误校正，2）蛋白质家族搜索和3）多个序列对齐，比1.29x-59.94x，1.03x-1.75x和分别为1.03x-1.95x。

translated by 谷歌翻译

COVIDHunter: COVID-19 pandemic wave prediction and mitigation via seasonality-aware modeling

Mohammed Alser , Jeremie S. Kim , Nour Almadhoun Alserr , Stefan W. Tell , Onur Mutlu

分类：机器学习

2022-06-14

共同检测和隔离Covid-19患者对于成功实施缓解策略并最终遏制疾病扩散至关重要。由于在每个国家 /地区进行的每日共同测试数量有限，因此模拟COVID-19的扩散以及目前每种缓解策略的潜在影响仍然是管理医疗保健系统和指导决策者的最有效方法之一。我们介绍了Covidhunter，这是一种灵活而准确的Covid-19爆发模拟模型，评估了当前适用于该地区的缓解措施，可预测Covid-19统计数据（每日案件，住院和死亡人数），并就何种建议提供建议。力量即将进行的缓解措施应该是。 Covidhunter的关键思想是通过模拟考虑到外部因素的影响，例如环境条件（例如气候，温度，湿度，湿度），关注的不同变体，疫苗接种率和缓解措施。 Covidhunter以瑞士为案例研究，估计我们正在经历一场致命的新浪潮，该浪潮将于2022年1月26日达到顶峰，这与我们2020年2月的浪潮非常相似。决策者只有一个选择是为了增加30天的当前缓解措施的强度。与现有模型不同，Covidhunter模型可以准确监视，并预测COVID-19造成的病例，住院和死亡人数。我们的模型可以灵活地进行配置，并且可以易于修改，以在不同的环境条件和缓解措施下对不同方案进行建模。我们在https://github.com/cmu-safari/covidhunter上发布了covidhunter实现的源代码。

translated by 谷歌翻译

COVIDHunter: An Accurate, Flexible, and Environment-Aware Open-Source COVID-19 Outbreak Simulation Model

Mohammed Alser , Jeremie S. Kim , Nour Almadhoun Alserr , Stefan W. Tell , Onur Mutlu

分类：机器学习

2021-02-06

背景：COVID-19患者的早期检测和隔离对于成功实施缓解策略并最终遏制疾病扩散至关重要。由于在每个国家 /地区进行的每日共同测试数量有限，因此模拟COVID-19的扩散以及目前每种缓解策略的潜在影响仍然是管理医疗保健系统和指导决策者的最有效方法之一。方法：我们介绍了Covidhunter，这是一种灵活而准确的Covid-19爆发模拟模型，该模型评估了应用于区域的当前缓解措施，并提供有关即将进行的缓解措施的强度的建议。 Covidhunter的关键思想是通过模拟考虑到外部因素的影响，例如环境条件（例如气候，温度，湿度，湿度）和缓解措施。结果：使用瑞士作为案例研究，Covidhunter估计，如果政策制定者放宽30天的缓解措施50％，那么医院病床的日常容量和每日死亡人数平均每天的死亡人数平均增加了5.1倍，则会增加5.1倍谁可能会占用ICU床和呼吸机一段时间。与现有模型不同，Covidhunter模型可以准确监视，并预测COVID-19造成的病例，住院和死亡人数。我们的模型可以灵活地配置，并且可以易于修改，以在不同的环境条件和缓解措施下对不同方案进行建模。可用性：我们在https://github.com/cmu-safari/covidhunter上发布了covidhunter实现的源代码，并展示如何在任何情况下灵活配置我们的模型，并轻松地将其扩展为不同的度量和条件。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Closing the Loop: Graph Networks to Unify Semantic Objects and Visual Features for Multi-object Scenes

Jonathan J. Y. Kim , Martin Urschler , Patricia J. Riddle , Jörg S. Wicker

分类：计算机视觉 | 机器人

2022-09-24

在同时定位和映射（SLAM）中，环路闭合检测（LCD）对于在识别先前访问的地方时最小化漂移至关重要。视觉袋（VBOW）一直是许多最先进的大满贯系统的LCD算法。它使用一组视觉功能来提供健壮的位置识别，但无法感知特征点之间的语义或空间关系。先前的工作主要集中在解决这些问题上，通过将VBOW与现场对象的语义和空间信息相结合。但是，他们无法利用局部视觉特征的空间信息，并且缺乏统一语义对象和视觉特征的结构，因此限制了两个组件之间的共生。本文提出了SymbiolCD2，该symbiolcd2创建了一个统一的图形结构，以在共生的方式集成语义对象和视觉特征。我们的新型基于图的LCD系统通过应用具有时间限制的Weisfeiler-Lehman图内核来利用统一的图结构，以稳健地预测循环闭合候选者。对所提出的系统的评估表明，具有结合语义对象和视觉特征的统一图结构提高了LCD预测精度，这说明了所提出的图形结构在这两个互补组件之间提供了强烈的共生。它还优于其他机器学习算法 - 例如SVM，决策树，随机森林，神经网络和基于GNN的图形匹配网络。此外，它在比最先进的SLAM系统的早期检测循环闭合候选方面表现出良好的性能，这表明统一图结构的扩展语义和空间意识会显着影响LCD的性能。

translated by 谷歌翻译

Learning Physics from the Machine: An Interpretable Boosted Decision Tree Analysis for the Majorana Demonstrator

I. J. Arnquist , F. T. Avignone III , A. S. Barabash , C. J. Barton , K. H. Bhimani , E. Blalock , B. Bos , M. Busch , M. Buuck , T. S. Caldwell

分类：机器学习

2022-07-21

Majorana示威者是一项领先的实验，寻找具有高纯净锗探测器（HPGE）的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法，但是与传统分析相比，数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑，使我们能够从机器中学习以反馈传统分析。在这项工作中，我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型，以从数据中学习，并进行了基于游戏理论的模型可解释性研究，以了解分类功率的起源。通过从数据中学习，该分析识别重建参数之间的相关性，以进一步增强背景拒绝性能。通过从机器中学习，该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验（如传说）高度兼容，因为它可以同时在大量探测器上进行训练。

translated by 谷歌翻译

Overlooked factors in concept-based explanations: Dataset choice, concept salience, and human capability

Vikram V. Ramaswamy , Sunnie S. Y. Kim , Ruth Fong , Olga Russakovsky

分类：计算机视觉

2022-07-20

基于概念的解释性方法旨在使用一组预定义的语义概念来解释深度神经网络模型的预测。这些方法在新的“探针”数据集上评估了训练有素的模型，并将模型预测与该数据集中标记的视觉概念相关联。尽管他们受欢迎，但他们的局限性并未被文献所理解和阐明。在这项工作中，我们分析了基于概念的解释中的三个常见因素。首先，选择探针数据集对生成的解释有深远的影响。我们的分析表明，不同的探针数据集可能会导致非常不同的解释，并表明这些解释在探针数据集之外不可概括。其次，我们发现探针数据集中的概念通常比他们声称要解释的课程更不太明显，更难学习，这使解释的正确性提出了质疑。我们认为，仅在基于概念的解释中才能使用视觉上的显着概念。最后，尽管现有方法使用了数百甚至数千个概念，但我们的人类研究揭示了32个或更少的概念更严格的上限，除此之外，这些解释实际上不太有用。我们对基于概念的解释性方法的未来发展和分析提出建议。可以在\ url {https://github.com/princetonvisualai/overlookedfactors}找到我们的分析和用户界面的代码。

translated by 谷歌翻译

Discovering novel systemic biomarkers in photos of the external eye

Boris Babenko , Ilana Traynis , Christina Chen , Preeti Singh , Akib Uddin , Jorge Cuadros , Lauren P. Daskivich , April Y. Maa , Ramasamy Kim , Eugene Yu-Chuan Kang

分类：计算机视觉 | 机器学习

2022-07-19

最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中，我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统（DLS），该系统将外部眼睛的照片作为输入，并预测多个全身参数，例如与肝脏有关的参数（白蛋白，AST）；肾脏（EGFR使用无种族的2021 CKD-EPI肌酐方程，尿液ACR）；骨与矿物质（钙）;甲状腺（TSH）;和血数（HGB，WBC，血小板）。开发利用了49,015例糖尿病患者的151,237张图像，在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数，并利用了3个验证集（a，b，c），涵盖了28,869名患有和没有糖尿病的患者，在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型（例如年龄，性别，种族/种族，糖尿病年）进行了比较。相对于基线，DLS在检测AST> 36，钙<8.6，egfr <60，HGB <11，血小板<150，ACR> = 300和WBC <4时，在检测AST> 36，钙<8.6，Egfr <60，HGB <60，HGB <60，calcium <8.6，Egfr <60，calcium <8.6和wbc <4时，达到了统计学上的显着性能，并且类似于开发集的人口），其中DLS的AUC超过基线的AUC，增长了5.2-19.4％。在验证集B和C方面，与开发集相比，患者人群的差异很大，DLS的表现优于ACR> = 300的基线，而HGB <11升至7.3-13.2％。我们的发现提供了进一步的证据，表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。

translated by 谷歌翻译

A Probabilistic Autoencoder for Type Ia Supernovae Spectral Time Series

George Stein , Uros Seljak , Vanessa Bohm , G. Aldering , P. Antilogus , C. Aragon , S. Bailey , C. Baltay , S. Bongard , K. Boone

分类：机器学习

2022-07-15

我们从一组稀疏的光谱时间序列中构建了一个物理参数化的概率自动编码器（PAE），以学习IA型超新星（SNE IA）的内在多样性。 PAE是一个两阶段的生成模型，由自动编码器（AE）组成，该模型在使用归一化流（NF）训练后概率地解释。我们证明，PAE学习了一个低维的潜在空间，该空间可捕获人口内存在的非线性特征范围，并且可以直接从数据直接从数据中准确地对整个波长和观察时间进行精确模拟SNE IA的光谱演化。通过引入相关性惩罚项和多阶段训练设置以及我们的物理参数化网络，我们表明可以在训练期间分离内在和外在的可变性模式，从而消除了需要进行额外标准化的其他模型。然后，我们在SNE IA的许多下游任务中使用PAE进行越来越精确的宇宙学分析，包括自动检测SN Outliers，与数据分布一致的样本的产生以及在存在噪音和不完整数据的情况下解决逆问题限制宇宙距离测量。我们发现，与以前的研究相一致的最佳固有模型参数数量似乎是三个，并表明我们可以用$ 0.091 \ pm 0.010 $ mag标准化SNE IA的测试样本，该样本对应于$ 0.074 \ pm。 0.010 $ mag如果删除了特殊的速度贡献。训练有素的模型和代码在\ href {https://github.com/georgestein/supaernova} {github.com/georgestein/supaernova}上发布

translated by 谷歌翻译

Body Composition Assessment with Limited Field-of-view Computed Tomography: A Semantic Image Extension Perspective

Kaiwen Xu , Thomas Li , Mirza S. Khan , Riqiang Gao , Sanja L. Antic , Yuankai Huo , Kim L. Sandler , Fabien Maldonado , Bennett A. Landman

分类：计算机视觉

2022-07-13

肺部以外的视野（FOV）组织截断在常规的肺筛查计算机断层扫描（CT）中很常见。这对机会性CT的身体组成（BC）评估构成了局限性，因为缺少关键的解剖结构。传统上，扩展CT的FOV被认为是使用有限数据的CT重建问题。但是，这种方法依赖于应用程序中可能无法使用的投影域数据。在这项工作中，我们从语义图像扩展角度提出问题，该角度仅需要图像数据作为输入。提出的两阶段方法根据完整体的估计范围识别新的FOV边框，并在截短区域中渗出了缺失的组织。使用在FOV中具有完整主体的CT切片对训练样品进行模拟，从而使模型开发自制。我们使用有限FOV的肺筛选CT评估了所提出的方法在自动BC评估中的有效性。提出的方法有效地恢复了缺失的组织并减少了FOV组织截断引入的BC评估误差。在大规模肺部筛查CT数据集的BC评估中，这种校正既可以提高受试者内的一致性和与人体测量近似值的相关性。已开发的方法可在https://github.com/masilab/s-efov上获得。

translated by 谷歌翻译